Library aufrufen das wir nutzen wollen
Registered S3 method overwritten by 'dplyr':
method from
print.rowwise_df
[37m-- [1mAttaching packages[22m --------------------------------------- tidyverse 1.2.1 --[39m
[37m[32mv[37m [34mggplot2[37m 3.2.1 [32mv[37m [34mpurrr [37m 0.3.2
[32mv[37m [34mtibble [37m 2.1.3 [32mv[37m [34mdplyr [37m 0.8.3
[32mv[37m [34mtidyr [37m 1.0.0 [32mv[37m [34mstringr[37m 1.4.0
[32mv[37m [34mreadr [37m 1.3.1 [32mv[37m [34mforcats[37m 0.4.0[39m
[37m-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[37m [34mdplyr[37m::[32mfilter()[37m masks [34mstats[37m::filter()
[31mx[37m [34mdplyr[37m::[32mlag()[37m masks [34mstats[37m::lag()[39m
Le chargement a n攼㸹cessit攼㸹 le package : RPostgreSQL
Datanbankverbindung aufbauen
Abrufen von daten um damit umzugehen
Registered S3 methods overwritten by 'dbplyr':
method from
print.tbl_lazy
print.tbl_sql
Kontrolle ob es fehlende werte gibt in der tabelle t_aisles
[1] 0
[1] 0
[1] 0
[1] 0
[1] 206209
Es fehlen 206209 werte von 3421083 für days_since_prior (6.0275942%.
Es könnten first-time Kunden sein, also die Kunden die ihre erste Bestellung machen
[1] 0
[1] 0
Jetzt wollen wir graphisch das verhältnis von Bio- zu nicht Bio-Produkte aufzeichnen
Wir möchten auch Visualizieren was die Verhältnisse sind, zwischen die Offerte an Bio-produkte in den verschiedene Departments und Aisles.
Man kann sehen das die Anzahl an Bio-Produkte in den Departments sehr swach ist, im gegensatz zu den “normalen” Produkten.
Man kann auch hier sehen das der Verhältniss zwischen Bio-Produkten und nicht Bio_Produkten niedrig ist in spezifische aisles. Es gibt sogar aisles wo es keinlerei Bio-Produkten gibt. Dafür aber gibt es andere aisles wo der Verhältnis viel grösser ist, z.b. Baby Food Formulas und Fresh Vegetables.
Wir möchten wissen welche Produkte am meisten eingekauft werden und ob diese Organic oder nicht sind
Ein ziele wäre die Stammkunden erkennen und sehen ob sie verschieden einkaufen, z.b eine höhere Anzahl an Produkten pro Bestellung kaufen. Daher haben wir der durschnitt an Bestellungen berechnet sowie die Quartilen: Ausser dem Visualizieren wir mit einen Plot die Anzahl kunden die Mehrmals bei uns eingekauft haben.
[1] 17.15486
0% 25% 50% 75% 100%
1 5 11 23 100
Wir wollen auch den Durschnitt von Bestellung von jeden Kunden Berechnen.
Wir definieren Stammkunden die die mindestens einmal alle 7 Tagen bei uns einkaufen (Alle 7 Tage, im diagramm 0 bis 6)
Die totale anzahl an stammkunden ist 33374 von 206209. Dies entsprecht 16.1845506% von aller Kunden die je im laden waren